Why You Cannot Trust Numbers from Qualitative Usability Studies定量可用性測試:小樣本研究存在大測量誤差

定性可用性研究因樣本量小且協議可變,所得數字往往會因大測量誤差而難以準確反映整體使用者行為。定性可用性測試是常見的資料收集方法,主要透過觀察少量使用者完成任務的表現來識別設計的易用性問題。然而,研究中生成的數字(如任務成功率、完成時間或滿意度評分)並非可靠指標。

常見問題包括:

  1. 樣本量小,誤差大:少量參與者的個人因素容易影響結果。
  1. 統計支援缺乏:缺乏置信區間或統計顯著性檢驗。
  1. 協議可變性:定性研究通常允許更多幹預,增加了資料噪聲。

真值理論:理解測量誤差

公式:觀測值=真值+測量誤差觀測值 = 真值 + 測量誤差

關鍵:

樣本量小導致大誤差

噪聲的來源:

  1. 個人差異: 使用者背景、技能水平、狀態等因素。
  1. 外部環境: 研究過程中的幹預或非設計因素。

示例:

樣本量10人: 若5人完成任務,成功率觀測值為50%,但置信區間可能為24%–76%,誤差高達 ±26%。樣本量100人: 同樣觀測值50%,置信區間縮小至40%–60%,誤差僅為 ±10%。

統計工具的作用

1. 置信區間(Confidence Interval)

定義: 描述觀測值預測真值的可能範圍。

樣本量越大,置信區間越小,測量誤差越低。

示例:樣本量10:成功率50% ±26%。樣本量100:成功率50% ±10%。

2. 統計顯著性(Statistical Significance)

示例:設計A和B的任務成功率為60%和70%。若p>0.05,則差異可能是噪聲;若p<0.05,則差異顯著且可歸因於設計差異。

協議可變性加劇誤差

定性測試特點:

定量測試特點:

不要在無統計支援下報告數字

誤導性陳述與改進建議:

錯誤陳述改進建議
“70%的使用者完成了任務。”“在本研究中,10名參與者中有7名完成了任務。根據該結果,我們估計總體成功率為39%–90%(95%置信區間)。”
“新設計的易用性評分優於舊設計(6.2 vs 5.1)。”“在研究中,新設計的易用性評分高於舊設計,但差異未達統計顯著性(p>0.05)。因此,不確定該結果能推廣到總體。”或“差異顯著,p<0.05。”
“滿意度均值為6.7(1為最低,7為最高)。”“研究中,滿意度均值為6.7(1為最低,7為最高);我們預計總體滿意度均值為5.2–7(95%置信區間)。”